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摘 要 好奇 是 驱动 信息 寻求 行为 最 主要 的 内 部 动机 。 从 感知 信息 缺口 使 好 奇 发 生 ， 到 对 控制 进行 价值 评估 
信息 寻求 行为 发 生 ， 再 到 目标 信息 获得 使 好 奇 满足 ， 每 一 环节 都 受到 当前 信息 输入 和 上 一 环节 反馈 输出 的 影 
响 ， 它 们 构成 了 一 个 反馈 循环 。 该 循环 还 嵌入 在 个 体 的 终生 发 展 过 程 中 ， 随 着 经 验 积累 和 脑 的 发 育 不 断 变化 。 
好 奇 反馈 循环 模型 融入 了 控制 的 期 望 价值 模型 和 贝 叶 斯 强化 学 习 框架 ,整合 了 来 自 监控 系统 、 奖 赏 系统 、 控 
制 系统 等 多 个 脑 功 能 系统 的 研究 证 据 ， 为 理解 好 奇 的 神经 生理 机 制 提 供 了 新 思路 。 
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好 奇 ， 尤 其 是 知识 好 奇 (epistemic curiosity) 
在 人 们 的 日 常 学 习 和 生活 中 扮演 着 重要 的 角色 。 
在 过 去 的 几 十 年 里 , 大 量 的 实证 研究 已 经 证 实 好 
奇 可 以 促进 学 习 、 改 善 认 知 、 激 发 创造 ， 甚 至 组 
解 焦虑 (Baer et al., 2012; Hardy et al., 2017; 
Hagtvedt et al., 2019; Harrison & Dossinger, 2017; 
Gruber et al., 2019; Kashdan & Roberts, 2006). 从 理 
论 探 讨 到 问卷 调查 ， 从 行为 实验 到 神经 生理 研究 ， 
有 些 研 究 者 关注 好 奇 的 特质 性 ， 有 些 研究 者 强调 
好 奇 状 态 性 (Berlyne，1954; Cervera et al., 2020; 
Kashdan & Ficham, 2004; Litman & Silvia, 2006; 
Loewenstein, 1994; Murayama et al., 2019), (HAA Ht 
被 研究 者 们 忽视 的 一 点 是 一 一 好 奇 是 在 变化 发 展 
的 ， 它 会 随 着 经 验 的 积累 和 脑 的 发 育 不 断 变 化 和 
发 展 。 因 此 , 本文 将 从 动态 发 展 的 视角 看 待 好 奇 ， 
以 反馈 循环 模型 为 框架 ,探讨 从 好 奇 发 生 到 好 奇 
满足 的 神经 生理 机 制 。 首 先 对 好 奇 的 概念 进行 辨 
析 和 界定 。 随 后 ， 对 构成 好 奇 反馈 循环 模型 的 各 
个 阶段 进行 前述 。 接 着 ， 对 好 奇 在 个 体 生 命 周 期 
中 的 变化 与 发 展 进行 总 结 。 最 后 ， 对 基于 该 模型 
的 未 来 研究 提出 建议 。 
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1 好 奇 的 概念 界定 


构建 一 个 关于 好 奇 的 整合 模型 遇 到 的 第 一 个 
问题 就 是 以 往 文献 对 好 奇 的 概念 界定 并 不 清晰 。 
19 ER, James (1891) 认 为 好 奇 是 为 了 适应 生存 
而 演化 出 来 的 主动 探索 环境 的 本 能 。 半 个 多 世纪 
后 , Berlyne (1954) 用 驱 力 减少 理论 (drive reduction 
theory) 来 解释 好 奇 ,认为 好 奇 是 一 种 对 信息 的 渴 
望 ,就 像 饥 饿 一 样 , 需要 被 满足 。 驱 力 减少 理论 最 
早 由 Hull (1943) 提 出 ,他 认为 驱 力 是 一 种 动机 结 
构 , 通过 给 机 体力 量 或 能 量 引发 行为 ， 以 满足 需 
求 ， 进 而 减弱 驱 力 。Berlyne (1957) 认 为 好 奇 是 一 
种 令 人 厌恶 的 状态 ,新 异性 和 不 确定 性 会 引起 好 
奇 。 而 信息 寻求 行为 的 目的 就 是 解决 不 确定 性 ， 
从 而 解除 这 种 令 人 厌恶 的 状态 。 此 外 ，Berlyne 
(1954) 还 把 好 奇 分 成 了 知识 好 奇 (epistemic curiosity) 
和 知觉 好 奇 (perceptual curiosity)。 其 中 ， 知 识 好 奇 
是 对 知识 信息 的 渴望 ， 主 要 适用 于 成 年 人 类 ; 知 
觉 好 奇 是 对 新 异性 感官 刺激 的 渴望 ， 除 成 年 人 类 
外 ,在 动物 和 人 类 婴儿 中 也 有 所 表现 。 正 是 这 种 
渴望 ， 驱 动 着 个 体 的 一 系列 探索 行为 。 在 提出 好 
奇 的 驱 力 减少 理论 后 ， Berlyne (1970) 又 指出 好 奇 
遵循 最 佳 唤醒 原则 ， 刺 激 新 异 度 太 高 会 导致 焦虑 ， 
太 低 会 导致 无 聊 只 有 新 异 度 居中 时 好 奇 水 平 最 
高 ， 愉 悦 度 也 最 高 。 这 似乎 与 他 先前 的 描述 相 予 
盾 , 一 是 按照 “ 驱 力 减少 理论 ”， 驱 力 应 该 随 着 刺 
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激 的 新 异 程度 增加 而 单调 递增 ， 进 而 驱动 更 多 的 
信息 寻求 行为 ; 二 是 新 异 刺激 造成 的 驱 力 增加 对 
应 的 是 厌恶 情绪 , 那么 愉悦 情绪 从 何 而 来 。 若 从 
动态 过 程 角度 看 竺 好奇， 这 两 个 矛盾 似乎 就 迎 丸 
而 解 了 。 首先 , 好 奇 的 发 生 是 有 条 件 的 ， 当 刺激 引 
起 的 唤醒 度 太 高 或 太 低 时 诱发 的 便 不 是 好 奇 , 或 
者 说 不 单纯 是 好 奇 ， 其 它 动机 的 产生 会 削弱 信息 
寻求 行为 。 另 外 ,新 异性 和 不 确定 性 促使 驱 力 增 
加 而 引起 厌恶 情绪 ， 这 和 随 着 新 异性 和 不 确定 性 
降低 促使 驱 力 减少 而 带 来 愉悦 情绪 ， 两 种 情绪 发 
生 的 时 间 节 点 不 同 , 并 不 存在 冲突 。 
到 了 1994 Æ, Loewenstein (1994) 提 出 了 “ 信 
息 缺 口 ? 理 论 (information-gap theory), 认为 信息 
缺口 会 引发 好 奇 。 例 如 不 确定 性 、 新 异性 、 复 杂 
性 、 意 外 性 等 ， 这些 能 引发 好 奇 的 特性 ， 本 质 上 都 
与 先 验 知识 的 局 限 性 有 关 , 会 使 个 体 产生 信息 缺 
Ho Loewenstein (1994) 认 为 好 奇 是 感知 到 信息 缺 
口 而 形成 的 认 知 剥夺 。 与 驱 力 理论 一 样 ， 信 息 缺 
口 理 论 认 为 好 奇 为 信息 寻求 提供 动力 ， 目的 是 消 
除 信息 缺口 带 来 的 厌恶 状态 。Loewenstein (1994) 
还 指出 ,信息 本 身 的 价值 就 是 以 驱动 个 体 的 信息 
寻求 行为 ， 哪怕 这 些 信息 并 不 服务 于 其 它 的 即时 
目标 。 

TÆ, Oudeyer 等 人 (2016) 明 确 将 好 奇 归 到 内 
部 动机 的 概念 框架 之 下 ， 认 为 好 奇 是 一 种 内 部 动 
机 。Ryan 和 Deci (2000) 将 内 部 动机 定义 为 “驱动 
个 体 为 了 乐趣 或 挑战 而 非 外 在 物品 、 压 力 或 奖励 
而 产生 行为 的 动力 。 个 体 为 了 内 在 的 满足 而 做 一 
FE, 享受 的 是 活动 本 身 而 不 是 它 的 工具 价值 。” 
与 内 部 动机 不 同 ,“ 外 部 动机 驱动 的 活动 具有 明显 
的 目的 性 , 为 的 是 获得 活动 之 外 的 工具 性 结果 。” 
两 者 的 区 别 在 于 是 否 具有 工具 性 目的 。 好 奇 符 合 
内 部 动机 的 特点 ,目标 信息 本 身 的 价值 就 足够 产 
生 信息 寻求 ， 而 无 须 附 加 其 它 的 工具 性 价值 
(Bennett et al., 2016; Lau et al., 2020; Marvin & 
Shohamy, 2016; Oosterwijk et al., 2020)。 

以 上 关于 好 奇 的 定义 更 多 是 把 好 奇 当 作 暂 时 
的 状态 来 理解 ,是 个 体 针对 环境 特征 所 表达 的 瞬 
间 体 验 ， 即 具有 状态 性 。 也 有 一 些 研究 者 认为 好 
奇 还 是 一 种 会 持续 对 新 知识 或 新 经 验 产生 淘 望 的 
性 格 倾向 ， 即 具有 特质 性 (Kashdan & Ficham, 
2004; Litman & Silvia, 2006), 并 据 此 开发 了 一 系 
列 关 于 好 奇 的 测量 工具 ,包括 《兴趣 /剥夺 型 知识 


好 奇 量 表 》(ID type Epistemic Curiosity Scale; 
Litman, 2008)《 好 奇 和 探索 清单 I 》(Curiosity and 
Exploration Inventory II, CEI-II; Kashdan et al., 
2009) 、《 五 维度 好 奇 量 表 》(Five-Dimensional 
Curiosity Scale, SDC; Kashdan et al., 2018) 等 。 这 
些 测量 工具 通常 涉及 三 个 方面 的 问题 ， 对 信息 的 
淘 望 程度 (动机 )、 信息 寻求 行为 发 生 的 强度 (行为 ) 
以 及 信息 寻求 时 的 情绪 状态 (情绪 )。 

可 以 看 到 的 是 , 在 这 些 对 好 奇 的 界定 中 , 涉 
及 到 动机 、 行 为 和 情绪 一 一 如 减少 不 确定 性 的 动 
机 ,寻求 信息 的 行为 ,对 信息 缺口 的 厌恶 或 是 面 
对 新 异 刺激 的 愉悦 等 ,它们 似乎 都 反映 了 好 奇 。 

但 问题 是 ， 好 奇 的 本 质 是 什么 ? 想 要 深入 探 
讨好 奇 ， 必 须 有 一 个 更 为 清晰 的 界定 。 虽 然 表 达 
有 所 不 同 , 但 大 多 数 研究 者 都 认为 好 奇 能 为 信息 
寻求 提供 动力 (Berlyne, 1954; Loewenstein, 1994; 
Oudeyer et al., 2016)， 即 好 奇 的 本 质 是 动机 ， 而 且 
是 以 获得 信息 本 身 而 非 其它 附 加 价值 为 目标 的 内 
部 动机 。 结合 Loewenstein 的 信息 缺口 理论 ,本 文 
想 要 探讨 的 好 奇 是 个 体感 知 到 信息 缺口 后 产生 的 
内 部 动机 。 好 奇 作为 信息 寻求 的 其 中 一 个 驱动 力 
而 存在 。 情 绪 伴 随 着 好 奇 的 产生 而 产生 ， 随 着 行 
为 和 行为 结果 的 变化 而 变化 。 正 如 从 扳机 扣 动 到 
射 中 目标 是 一 个 过 程 , 行为 (信息 寻求 等 ) 和 情绪 
(厌恶 、 恰 悦 、 无 聊 等 ) 就 是 好 奇 这 个 扳机 扣 动 后 引 
发 的 一 系列 可 能 的 状态 和 结果 。 想 象 一 下 , 在 日 
常生 活 中 ， 当 你 表达 “我 很 好 奇 > 的 时 候 ， 更 多 想 
要 传达 的 可 能 是 “我 想 知道 "这 样 一 种 状态 ， 而 “ 想 
知道 "反映 的 是 动机 。 而 动机 发 生 就 必然 存在 动机 
的 满足 或 不 满足 ， 从 好 奇 发 生 到 好 奇 满 足 ， 究 竟 
会 经 历 一 个 怎样 的 过 程 ， 本 文 将 在 下 一 部 分 进行 
FAL 


2 好奇 在 短 时 反馈 循环 中 的 变化 与 影响 


虽然 好 奇 本 质 上 是 动机 , 但 好 奇 动机 是 一 系 
列 好 奇 相关 事件 的 开端 ， 这 个 开端 又 会 受到 后 续 
事件 结果 的 影响 ,也 就 是 说 ， 从 好 奇 发 生 到 好 奇 
满足 构成 了 一 个 反馈 回路 (feedback loop)。 这 个 反 
馈 回 路 主要 包括 “感知 信息 缺口 -好 奇 发 生 - 控 制 
的 价值 评估 -信息 寻求 -好 奇 满足 -信息 整合 "六 个 
阶段 ， 该 结构 与 Murayama 等 人 (2019) 的 知识 获取 
的 奖励 性 学 习 框架 (reward-learning framework of 
knowledge acquisition) 基 本 一 致 。Murayama 认为 
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可 持续 的 知识 获取 从 意识 到 知识 缺口 开始 ,之 后 
个 体会 发 起 信息 寻求 行为 ,直到 获取 相应 知识 感 
受到 奖励 ， 进一步 强化 了 信息 寻求 行为 ,同时 知 
识 库 扩 增 使 得 人 们 更 容易 探测 到 知识 缺口 。 另 外 ， 
Gruber 和 Ranganath (2019) 的 预测 、 评 价 、 好 奇 、 
探索 (prediction, appraisal, curiosity, and exploration, 
PACE) 模 型 认为 好 奇 始 于 预测 偏差 ， 接 着 个 体 对 
该 偏差 指向 的 未 来 信息 进行 价值 评估 ,进而 引发 
好 奇 和 探索 行为 ,并 最 终 促进 学 习 和 记忆 。 奖 励 
性 学 习 框 架 关 注 的 是 知识 获取 的 过 程 ， 认 为 “好 
奇 "“ 兴 趣 ”“ 吃 惊 ” 等 只 是 人 们 对 知识 获取 过 程 
中 产生 的 各 种 体验 的 事后 解释 。PACE 模型 认为 
好 奇 是 信息 价值 评估 的 结果 ， 强 调 好 奇 对 记忆 的 
影响 。 本 文 认 为 好 奇 的 本 质 是 知识 获取 行为 发 生 
的 主要 动力 , 关注 的 是 好 奇 的 动态 变化 性 。 

无 论 具 体 表达 如 何以 上 模型 本 质 上 均 源 于 
强化 学 习 (reinforcement learning, RL) 模 型 (Rescorla, 
1972; Sutton & Barto, 1998)。 所 谓 RL, 人 研究 的 是 
自然 和 人 工 系统 如 何在 环境 中 学 习 预 测 结果 ， 并 
进行 行为 优化 的 过 程 。RL 的 关键 是 通过 强化 物 改 
变 行为 和 动机 。 该 理论 脱胎 于 心理 学 ,目前 被 广 
泛 用 于 经 济 学 、 机 需 学 习 等 领域 (Sutton & Barto, 
2018)。 与 一 般 RL 相 比 ， 好 奇 诱 发 信息 寻求 最 重 
要 的 特点 在 于 强化 物 是 满足 好 奇 的 信息 本 身 。 

本 文 在 阐述 好 奇 的 反馈 循环 模型 时 ,将 重点 
放 在 了 每 个 阶段 的 神经 生理 机 制 上 。 模 型 将 好 奇 
定位 在 内 部 动机 上 ， 把 信息 寻求 行为 作为 好 奇 的 
诱发 结果 、 情 绪 作为 好 奇 的 伴生 产物 ， 强 调 好奇 
的 动态 变化 性 ( 见 图 1a)。 根 据 Loewenstein (1994) 
的 信息 缺口 理论 , 个 体感 知 到 信息 缺口 产生 厌恶 
感 ， 为 缓解 这 种 情绪 , 个体 对 信息 (奖励 ) 产 生 淘 
望 ， 即 产生 好 奇 动机 。 基 于 当前 环境 、 过 往 经 验 ， 
个 体 根据 当前 活动 状态 或 潜在 行为 (如 信息 寻求 ) 
的 预期 结果 进行 控制 的 价值 (value of controD 评 个 ， 
即 评估 接 下 来 的 行为 需要 施加 多 少 控制 和 如 何 施 
加 控制 ， 以 决定 是 否 发 起 信息 寻求 。 信 息 寻 求 对 
应 不 同 的 结果 :信息 获取 成 功 , 好 奇 满足 ; 信息 获 
取 失 败 ， 好 奇 未 满足 。 此 阶段 也 会 伴随 各 种 情绪 
的 产生 (di Leo et al., 2019; Vogl et al., 2019)。 由 于 
有 新 信息 的 输入 , 个 体 的 状态 会 发 生 改 变 , 并 成 
为 控制 价值 评估 的 线索 ,进而 影响 新 一 轮 的 信息 
寻求 行为 。 好 奇 满足 意味 着 信息 奖励 获得 ,往往 
会 增加 个 体 对 新 信息 的 期 望 价值 和 行为 有 效 性 的 


估计 ,进而 强化 信息 寻求 行为 。 而 信息 的 进一步 
整合 带 来 先 验 知识 的 扩展 ,扩展 的 先 验 知识 使 个 
体 更 易于 意识 到 新 的 信息 缺口 ,激发 新 的 信息 寻 
求 行 为 。 此 过 程 形成 了 一 个 正 反 馈 循环 ， 有 助 于 
可 持续 的 知识 获取 。 反 之 ,信息 获取 失败 ， 正 反馈 
循环 就 此 打 断 。 需 要 注意 的 是 ,我 们 容易 把 好 奇 
满足 简单 地 理解 为 好 奇 任务 中 目标 信息 的 呈现 。 

事实 上 , 在 真实 情境 中 , 信息 寻求 过 程 是 动态 的 ， 
寻求 结果 也 是 动态 的 ， 所 有 缩小 或 扩大 信息 缺口 
的 信息 都 会 引发 个 体 状 态 的 改变 ， 导 致 好 奇 的 满 
足 或 不 满足 。 

本 文 与 奖励 性 学 习 模 型 (Murayama et al.， 
2019) 最 大 的 区 别 在 于 融入 了 Shenhav 等 人 (2013， 
2016) 的 “控制 的 期 望 价 值 ?”(expected value of 
control, EVC) 模 型 。 之 所 以 做 此 融合 ， 是 因为 从 好 
奇 动 机 的 产生 到 信息 寻求 行为 的 发 生 ， 符 合 一 般 
行为 决策 的 规律 ， 遵 循 神经 经 济 学 (neuroeconomics; 
Rangel et al., 2008) 原 理 ， 即 信息 寻求 行为 的 发 生 
及 策略 的 选择 取决 于 一 系列 神经 生物 学 的 价值 计 
算 结果 (Platt & Plassmann, 2014)。EVC 模型 对 这 
种 基于 动机 和 奖励 的 行为 决策 过 程 进行 了 概括 
(图 1b)。 需要 说 明 的 是 , EVC 模型 中 的 控制 ， 也 叫 
认 知 控制 (cognitive control),， 指 的 是 在 一 些 非 “ 自 
动 化 ”的 、 需 要 花费 时 间 并 付出 努力 才能 完成 的 任 
务 中 , 协调 行为 使 其 和 目标 一 致 的 能 力 。 主 动 发 
起 的 信息 寻求 就 是 一 种 需要 施加 控制 的 行为 。 在 
EVC 模型 中 ， 背 侧 扣 带 回 (dorsal anterior cingulate 
cortex，dACC) 连 接着 状态 评估 和 行为 调节 。 有 具体 
来 说 就 是 ， 系 统 将 反映 当前 活动 状态 或 潜在 行为 
预期 结果 的 信号 传递 给 dACC, dACC 综合 预期 奖 
励 和 努力 成 本 等 信息 ， 计 算得 到 EVC, 决定 如 何 
分 配 控制 资源 ， 并 将 计算 结果 输出 给 调节 系统 进 
行 控 制 执行 (Shenhav et al., 2013; Shenhav et al., 
2016)。 

另外 , 在 整个 RL 过 程 中 ， 多 巴 胺 (dopamine， 
DA) 系 统 扮演 着 重要 的 角色 。 投 射 向 不 同 脑 区 的 
DA, 可 能 具有 不 同 的 作用 (图 1c)。 其 中 ， 主 要 由 
腹 侧 被 盖 (ventral tegmental area,，VTA) 和 黑 质 
(substantia nigra，SN) 腹 中 侧 发 出 ,投射 向 伏 隔 核 
(nucleus accumbens, NAcc; 位 于 腹 侧 纹 状 体 ， 
ventral striatum, VS) 和 前 扣 带 回 (anterior cingulate 
cortex，ACC) 的 多 巴 胺 能 神经 元 (dopaminergic 
neurons，DAN)， 对 强化 物 的 效 价 进行 反应 ; 而 主 
要 从 SN 背 外 侧 和 外 侧 发 出 ， 投 射 向 前 额 叶 
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信息 缺口 > 好 奇 动机 一 > 控制 的 价值 评估 -> 信息 寻求 > 好 奇 满足 > 信息 整合 
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PEC 指示 刺激 突显 性 - 
(d) 海马 -VTA/SN 回 路 认 知 控制 
(c) 中 脑 DA 系 统 


图 1 好 奇 的 反馈 循环 模型 及 其 神经 生理 机 制 。(a) 好 奇 的 反馈 循环 过 程 。 个 体感 知 到 信息 缺口 形成 认 知 剥夺 ,引发 
天 恶 情绪 ， 从 而 产生 对 信息 的 渴求 ， 即 好 奇 动 机 。 系 统 对 当前 状态 (包括 好 奇 动 机 ) 进 行 评估 ,得 到 EVC， 以 决定 是 否 
值得 发 起 信息 寻求 行为 。 若 认 知 控制 的 收益 大 于 代价 则 发 起 控制 ， 进 行 信息 寻求 。 信 息 寻求 成 功 ， 好 奇 满足 。 好 奇 
满足 产生 的 体验 重新 成 为 输入 信息 , 改变 当前 状态 ,进而 影响 之 后 的 好 奇 动 机 产生 及 信息 寻求 发 起 。 最 后 ， 获 得 的 信 
息 与 先 验 知识 发 生 整 合 ， 先 验 知识 得 到 扩展 , 个 体 更 容易 意识 到 新 的 信息 缺口 , 激发 新 的 信息 寻求 行为 。 此 过 程 形成 
了 一 个 正 反 馈 循 环 , 有 助 于 可 持续 的 知识 获取 。(b) 基 于 动机 和 奖励 的 行为 决策 过 程 ， 此 图 参考 Shenhav 等 人 (2016) 
的 EVC 模型 。 反 映 当 前 活动 状态 或 潜在 行为 预期 结果 的 信号 传递 给 dACC, dACC 计算 EVC, 决定 控制 资源 如 何 使 
FA, 并 将 计算 结果 输出 给 调节 系统 进行 认 知 控制 。(c) 中 脑 DA 系统 。SN/VTA 位 于 中 脑 , 是 DA 释放 的 起 源 (Ballard et al., 
2011; Cervera et al., 2020; Frankle et al., 2006)。 其 中 ,从 中 脑 发 出 投射 至 NAcc (属于 VS X), ACC, MFC 等 区 域 的 
DA 通常 反映 了 实际 接收 到 的 奖励 和 预期 奖励 之 间 的 差异 ， 即 RPE. DAN 的 活动 与 效 价 有 关 ( 奖 励 使 DAN 活动 性 增 
加 ,惩罚 使 DAN 活动 性 降低 )， 且 变化 快速 , 因此 可 被 用 来 更 新 价值 表征 , 实现 RL。 而 从 中 脑 投 射 向 PFC 的 DA 与 
效 价 无 关 , 传递 的 是 刺激 突显 性 信号 ， 预 示 着 刺激 需要 获得 更 多 注意 , 因此 对 认 知 控制 有 促进 作用 。(d) 海 马 -VTA/SN 
功能 回路 。 海 马 与 中 脑 VTA/SN 的 DAN 构成 了 一 个 功能 回路 。DA 在 海马 内 释放 , 会 增强 LTP， 有 助 于 记忆 了 巩固。 
缩写 : EVC- 控 制 的 期 望 价值 (expected value of control); OFC- 眶 额 皮 质 (orbitofrontal cortex); dACC- 背 侧 前 扣 带 回 
(dorsal anterior cingulate cortex); LPFC- 外 侧 前 额 叶 皮质 (lateral prefrontal cortex); MC- 运 动 皮质 (motor cortex); LC- 蓝 
斑 核 (locus coeruleus); DA- 多 巴 胺 (dopamine system); VTA- 腹 侧 被 盖 (ventral tegmental area); SN- 黑 质 (substantia nigra); 
NAcc- 伏 隔 核 (nucleus accumbens); VS- 腹 侧 纹 状 体 (ventral striatum); MFC- 内 侧 前 额 叶 皮质 (medial prefrontal cortex); 
ACC- 前 扣 带 回 (anterior cingulate cortex); PFC- 前 额 叶 皮 质 (prefrontal cortex); RPE- 奖 励 预测 偏差 (reward prediction 
error); RL- 强 化 学 习 (reinforcement learning) 


(prefrontal cortex, PFC) 的 DAN， 则 对 强化 物 的 突 HE, 实现 RL; 而 与 突显 性 有 关 的 DA 则 预示 着 刺 
显 性 进行 反应 (Dayan & Niv, 2008; Matsumoto & 激 需 要 获得 的 注意 量 , 参与 调节 认 知 控制 (Ott & 
Hikosaka, 2009; Ott & Nieder, 2019)。 因 此 ， 有 研 Nieder, 2019; Sutton & Barto, 2018). 

究 者 认为 与 效 价 有 关 的 DA 可 被 用 来 更 新 价值 表 而 好 奇 的 一 个 重要 作用 促进 学 习 和 记忆 
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(Gruber et al., 2014; Kang et al., 2009; Marvin & 
Shohamy, 2016), 也 与 DA 系统 密切 相关 。 因 为 ， 
参与 学 习 和 记忆 的 关键 脑 区 海马 (hippocampus) 与 
中 脑 VTA/SN 的 DAN 之 间 存 在 一 个 功能 回路 (图 
ld; Lisman & Grace, 2005)。DA 在 海马 内 释放 ,会 
增强 长 时 程 增强 (long-term potentiation, LTP), mi 
LTP 是 记忆 巩固 的 关键 步骤 (Lisman & Grace, 
2005)。 

总 之 , 静态 地 观察 好 奇 本 身 存在 一 定 的 局 限 
性 , 把 从 好 奇 发 生 开始 的 一 系列 事件 联系 在 一 起 
才能 更 好 地 理解 好 奇 的 本 质 和 作用 。 接 下 来 ,本 
文 将 分 别 对 该 模型 的 各 个 阶段 及 各 阶段 的 神经 生 
理 机 制 进 行 具体 阐述 。 

21 好奇 发 生 阶段 

Loewenstein (1994) 的 信息 缺口 理论 认为 ， 好 
奇 的 作用 与 其 他 驱动 力 类 似 ， 如 饥饿 促使 人 们 进 
食 ， 而 好 奇 促 使 人 们 填补 “信息 缺口 ”少量 信息 或 
冲突 信息 都 可 以 成 为 一 剂 启动 剂 ， 驱动 信息 寻求 
行为 。 通 常情 况 下 , 信息 缺口 与 个 体 的 先 验 知识 
有 关 ， 当 前 信息 与 先 验 知识 的 差异 决定 了 缺口 的 
大 小 。 当 探知 到 知识 缺口 时 ， 人 们 就 会 主动 发 起 
信息 寻求 行为 ， 以 获取 知识 。 

也 就 是 说 ， 信 息 缺 口 可 以 引起 好 奇 ， 先 验 知 
识 决定 了 信息 缺口 。 那 么 多 大 的 信息 缺口 是 合适 
的 呢 ?Berlyne，Hebb 等 人 (Berlyne，1970; Hebb, 
1955) 指 出 存在 一 个 最 佳 的 信息 不 一 致 水 平 ， 并 称 
其 为 “最 佳 唤 醒 ? 水 平 。 他 们 认为 ， 不 太 熟 悉 也 不 太 
新 奇 的 刺激 才 会 诱发 好 奇 ， 极度 的 不 一 致 导致 的 
是 恐惧 反应 而 不 是 探索 行为 。Kidd 等 人 (2012) 的 
研究 也 发 现 ,对 于 信息 含量 很 低 (高 度 可 预测 ) 或 
信息 含量 很 高 (高 度 令 人 惊讶 ) 的 事件 ， 婴儿 移 开 
视线 的 可 能 性 最 大 。 婴 儿 倾向 于 将 注意 维持 在 有 具 
有 中 等 信息 量 的 事件 上 。Kang 等 人 (2009) 在 成 人 
身上 也 发 现 了 类 似 的 结果 , 个 体 对 冷 知识 问题 答 
案 的 好 奇 与 对 答案 的 信心 之 间 的 关系 是 一 条 倒 U 
型 曲线 ， 即 当 被 试 对 答案 一 无 所 知 或 极度 自信 时 ， 
好 奇 最 弱 ; 而 当 被 试 对 答案 模棱两可 时 ， 好 奇 最 
强 。 更 强 的 好 奇 动机 意味 着 会 启动 更 多 的 注意 资 
源 投 入 。 这 种 对 中 度 不 确定 性 产生 最 大 好 奇 、 投 
人 和信 最 多 注意 的 策略 可 以 有 效 防止 人 们 在 过 于 可 预 
测 或 过 于 复杂 的 事件 上 浪费 认 知 资源 ， 从 而 帮助 
他 们 最 大 限度 地 发 挥 学 习 洪 能 。 

参与 信息 缺口 探测 的 脑 区 主要 有 两 个 一 一 海 


ThA ACC (HIE 等 , 2021)。 海 马 在 新 记忆 形成 时 
参与 了 新 信息 的 联结 , 在 长 时 记忆 提取 时 参与 了 
对 已 存储 信息 的 索引 ， 而 且 海 马 与 情景 记忆 的 建 
立 关 系 密切 (Squire et al., 2007; Eichenbaum & 
Cohen, 2014)。 因 此 , 海马 对 新 的 或 意外 的 环境 信 
息 极为 敏感 。 这 些 信 息 可 以 通过 激活 海马 引导 接 
下 来 的 视觉 探索 (Liu et al., 2017; Voss et al., 
2017)。 除 了 新 异 环境 , 认 知 冲突 也 是 信息 缺口 的 
一 个 重要 体现 。 对 认 知 冲突 的 监控 则 与 ACC 有 
关 。 有 研究 者 认为 存在 一 个 冲突 监控 系统 ， 用 来 
监控 信息 处 理 中 的 冲突 发 生 , 目的 是 基于 冲突 大 
小 计算 需要 施加 的 控制 ， 并 将 此 信息 传递 给 负责 
控制 的 中 心 ， 其 中 负责 冲突 监控 的 脑 区 正 是 ACC 
(Botvinick et al., 2001; Shenhav et al., 2016)。 研 究 
发 现 ， 当 给 被 试 呈 现 模糊 图 片 (诱发 好 奇 的 材料 ) 
时 , ACC 的 活动 确实 有 所 增强 (Jepma et al., 2012)。 

另外 ， 好 奇 作 为 动机 ， 具 有 趋 避 两 面 性 ， 好 
奇 动机 “ 趋 ”的 是 信息 (奖励 ),“ 避 ”的 是 信息 缺口 带 
KHERA. Berlyne (1957) 就 曾 指出 好 奇 是 一 
种 令 人 厌恶 的 状态 。Loewenstein (1994) 认 为 意识 
到 信息 缺口 会 带 来 一 种 剥夺 感 。Litman (2008) 提 
出 的 剥夺 型 好 奇 (deprivation type curiosity) 表 明 好 
奇 有 可 能 是 不 被 满足 的 需求 状态 。 可 见 ， 好 奇 与 
厌恶 情绪 相生 相伴 。 最 近 的 实证 研究 证 实 了 这 一 
负 性 情绪 的 存在 ，van Lieshout, de Lange 等 人 
(2021) 用 抽奖 任务 对 呈现 信息 的 不 确定 性 进行 了 
定量 操作 ,结果 发 现 不 确定 性 越 强 , 产生 的 好 奇 
水 平 越 高 , 但 愉悦 度 却 降低 了 。Jepma 等 人 (2012) 
用 模糊 图 片 诱发 好 奇 ， 激活 了 前 岛 叶 皮层 
(anterior insular cortex, AIC)。 而 AIC 与 个 体 的 消 
极 唤醒 有 关 ( 如 疼痛 、 大 恶 等 ; Shackman et al., 
2011; Singer et al., 2009), 说 明 好 奇 发 生 涉及 一 种 
类 似 厌恶 的 情绪 状态 。 
2.2 ”信息 寻求 行为 的 决策 阶段 

首先 , 需要 说 明 的 是 , 信息 寻求 被 认为 是 典 
型 好 奇 诱发 行为 。 当 人 们 感到 好 奇 ， 即 在 好 奇 动 
机 的 驱使 下 , 会 去 探索 、 提 问 和 操纵 有 趣 的 物体 
(Kidd & Hayden, 2015), 这 些 均 被 视 作 信 息 寻 求 。 
但 好 奇 诱发 的 行为 不 只 是 信息 寻求 。 例 如 ， 当 一 
个 人 回避 剧 透 (Rosenbaum & Johnson, 2015) 时 ,这 
种 回避 信息 的 行为 也 部 分 始 于 好 奇 动机 。 此 外 , 信 
息 寻 求 也 并 不 意味 着 总 是 伴随 外 显 行 为 (Murayama 
et al., 2019)。 例 如 , 在 课堂 教育 情境 下 ， 知 识 可 能 
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是 由 外 部 提供 的 , 学 生 只 是 被 动 接受 者 。 不 过 ， 即 
便 在 这 种 情况 下 ,学 生 对 信息 的 理解 依然 取决 于 
他 对 信息 的 主动 处 理 程度 。 也 就 是 说 ,学 生 仍 然 
在 心理 上 进行 信息 搜寻 , 且 该 过 程 需要 认 知 控制 。 
2.2.1 “信息 寻求 行为 的 决策 过 程 

从 好 奇 发 生 到 信息 寻求 具有 一 般 行为 决策 的 
特点 和 内 在 机 制 ( 图 1b)。 信息 寻求 行为 是 否 发 出 、 
怎样 发 出 是 一 系列 价值 计算 的 结果 (Platt & 
Plassmann, 2014; Rangel et al., 2008)。Shenhav 等 
人 (2013, 2016) 将 这 种 价值 描述 为 EVC, 在 需要 认 
知 控制 的 任务 中 , EVC 整合 了 以 下 信息 : 控制 过 
程 的 预期 收益 ,实现 该 收益 需要 投入 的 控制 量 ， 
以 及 认 知 努力 需要 付出 的 成 本 。 所 以 ，EVC 代表 
着 控制 的 净 价值 ， 用 于 决定 在 接 下 来 的 行为 中 控 
制 如 何 分 配 。EVC 的 估计 发 生 在 dACC 中 , dACC 
接收 来 自 杏仁 核 、AIC、OFC、 中 脑 等 结构 的 信号 
输入 , 这些 信号 反映 了 生物 体 的 当前 状态 (如 当前 
任务 需求 、 处 理 能 力 、 动 机 状态 等 ) 和 潜在 行为 结 
果 的 价值 (同时 考虑 结果 发 生 的 可 能 性 和 预期 价 
值 )。 上 文 提 到 的 认 知 冲突 只 是 dACC 处 理 的 众多 
言 号 之 一 (Shenhav et al., 2016)。 

在 好 奇 相关 的 研究 中 , 研究 者 发 现 OFC 可 能 
是 对 信息 价值 进行 编码 的 脑 区 。 在 一 个 好 奇 交 易 
任务 (curiosity tradeoff task) 中 ,研究 者 发 现 OFC 


研究 表明 ,信息 缺口 激活 ACC 后 会 将 信号 传 
递 给 LPFC,， 并 由 LPFC 决定 是 否 发 起 探索 行为 
(Gruber & Ranganath, 2019; Gruber & Fandakova, 
2021)。 一 项 使 用 冷 知 识 问 题 范 式 的 神经 成 像 研 究 
EW, 与 低 好 奇 相 比 ， 高 好 奇 相关 的 冷 知识 问题 
对 LPFC 的 激活 更 强 , 这 可 能 与 高 好 奇 问题 拥有 
更 高 的 EVC 有 关 (Kang, et al., 2009; Gruber et al., 
2014; Ligneul et al., 2018)。 其 他 好 奇 研 究 也 显示 ， 
当面 对 高 不 确定 性 图 片 时 , LPFC 活动 更 强 (Jepma 
et al., 2012), AH EWR A fe AK Bt (noradrenergic 
system) FARE FH AF ERX (norepinephrine, NE) 
的 部 位 一 一 LC 也 参与 了 好 奇 的 响应 (Gompf et al., 
2010)。 面 对 不 可 预测 的 、 不 确定 的 刺激 时 表现 出 
的 瞳孔 扩张 反映 的 就 是 LC 的 活动 Joshi et al., 
2016; Payzan-LeNestour et al., 2013)。 

值得 注意 的 是 , 信息 寻求 行为 通常 始 于 好 奇 ， 
但 好 奇 并 不 必然 会 引起 信息 寻求 行为 , 好奇 只 是 
信息 寻求 的 动机 之 一 。 有 时 候 “ 想 知道 "不 意味 着 
人 们 会 采取 行动 “去 知道 ”从 EVC 模型 可 以 看 出 ， 
发 出 一 个 行为 是 一 系列 成 本 -收益 分 析 的 结果 。 鉴 
于 好 奇 的 内 部 动机 特性 , 满足 好 奇 的 信息 本 身 就 
具有 奖励 性 质 ， 无须 附加 其 它 工 具 性 价值 就 对 信 
息 寻 求 有 驱动 作用 。 众 多 研究 也 都 支持 了 这 一 观 
点 ,为 了 获得 满足 好 奇 动机 的 信息 ， 人 们 甚至 愿 


既 编 码 了 赌博 的 赌注 ， 也 编码 了 满足 好 奇 的 信息 
价值 ， 这些 代表 价值 高 低 的 信号 被 送 往 了 中 脑 
DA 系统 (Blanchard et al., 2015; Charpentier et al., 
2018)。 但 对 信息 价值 的 编码 是 否 与 自然 奖励 物 的 
编码 一 致 ， 研 究 者 们 在 观点 上 仍 有 分 歧 (Cervera 
et al., 2020)。 一 项 关于 物品 选择 任务 的 研究 可 以 
很 好 地 反映 OFC 和 ACC 在 价值 编码 上 的 区 别 
(Shenhav & Buckner, 2014)。 当 两 个 物品 都 具有 高 
价值 ， 被 试 必须 要 选择 其 中 之 一 的 时 候 ， 相 较 于 
两 个 低 价值 物品 或 价值 一 高 一 低 的 两 个 物品 ， 被 
试 的 焦虑 水 平 最 高 。ACC 的 反应 与 焦虑 水 平一 致 ， 
冲突 越 大 ,激活 越 强 。 而 OFC 的 反应 只 与 即将 选 
到 的 物品 价值 有 关 , 价值 越 高 ,激活 越 强 。 可 见 ， 
OFC 编码 的 是 预期 的 报酬 或 奖励 ， 而 ACC 反 映 的 
是 任务 需要 施加 的 控制 。 
当 dACC 计算 出 控制 资源 的 分 配方 案 后 ， 计 
算 结 果 会 输出 给 调节 系统 进行 控制 的 具体 执行 。 负 
责 接 收 来 自 dACC 输出 信号 的 脑 区 主要 有 LPFC、 

运动 皮质 、 纹 状 体 、LC 等 (Shenhav et al., 2016)。 


意 付 出 一 些 代价 (如 货币 成 本 、 时 间 成 本 、 电 击 等 ; 
Bennett et al., 2016; Lau et al., 2020; Marvin & 
Shohamy, 2016)。 但 这 些 信息 除了 满足 好 奇 外 ， 可 
能 还 具有 其 它 的 附加 价值 。 例 如 ,信息 可 能 
不 同 的 情绪 效 价 ， 对 信息 情绪 效 价 的 预期 也 会 影 
响 信 息 寻 求 行为 (Hertwig & Engel, 2016)。Charpentier 
等 人 (2018) 的 研究 表明 ， 当 被 试 可 能 获得 的 信息 
为 负 性 (有 金钱 损失 ) 时 ,他们 的 信息 寻求 行为 会 
减少 ,不 过 , 也 有 研究 指出 为 了 满足 好 奇 ， 即便 是 
恐怖 图 片 依然 具有 奖励 性 质 可 引起 信息 寻求 行 
X (Oosterwijk et al., 2020). 

除了 信息 本 身 会 影响 信息 寻求 行为 的 价值 佑 
计 外 ,获得 信息 的 可 能 性 也 是 一 个 重要 的 影响 因 
素 。 人 们 发 起 信息 寻求 行为 的 决定 不 仅 取决 于 信 
息 携带 的 价值 ， 还 取决 于 获得 信息 所 要 付出 的 代 
价 。 上 文 提 到 ， 人 们 愿意 为 了 获得 满足 好 奇 的 信 
息 而 付出 一 些 代价 , 但 当代 价 变 大 时 , 信息 寻求 
的 可 能 性 便 有 所 降低 (Bennett et al., 2016)。 人 研究 表 
H, 对 行为 有 效 性 的 评估 是 影响 行为 选择 与 执行 
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的 一 个 重要 因素 。 同 样 是 为 了 解决 不 确定 性 ， 当 
认为 行为 策略 有 效 时 ,会 表现 出 更 多 的 探索 行为 
(Jaśko et al., 2015; Sankaran et al., 2017)。 如 果 一 
个 人 不 相信 自己 有 足够 的 能 力 获得 信息 或 者 行为 
成 本 太 高 , 他 /她 就 会 放弃 信息 寻求 行为 (Noordewier 
& van Dijk, 2016; Silvia, 2005)。 而 如 果 一 个 人 在 
探索 后 没有 获得 满足 好 奇 动机 的 有 效 信息 ,那么 
他 /她 对 自己 获得 目标 信息 的 信念 就 会 降低 ,最终 
导致 没有 动力 再 次 启动 新 的 信息 寻求 行为 
(Tanaka & Murayama, 2014)。 同 时 ， 当 他 /她 通过 
探索 获得 有 效 信息 并 转化 成 知识 时 ,伴随 知识 获 
得 , 他 /她 的 主观 能 力 和 技能 也 在 提高 。 因 此 ， 知 
识 和 主观 能 力 随 着 时 间 的 推移 会 共同 发 展 ， 二 者 
在 我 们 的 学 习 系 统 中 可 能 无 法 区 分 。 
2.2.2 ”多 巴 胺 在 好 奇 驱 动 的 强化 学 习 中 的 作用 

除了 ACC, DA 系统 被 认为 在 动机 和 认 知 控 
制 之 间 的 相互 作用 中 发 挥 关 键 作 用 (Ballard et al., 
2011; Berke, 2018; Bromberg-Martin et al., 2010)。 
从 SN/VTA 发 出 的 DAN 投射 向 不 同 的 脑 区 ， 并且 
表现 出 一 些 功能 上 的 差异 (图 1c)。 主要 从 VTA 和 
SN 腹 中 侧 发 出 , 投射 向 NAcc 和 ACC 的 DAN, 对 
强化 物 的 效 价 进行 反应 ; 而 主要 从 SN 背 外 侧 发 
出 ,投射 向 PFC 的 DAN， 则 对 强化 物 的 突显 程度 
进行 反应 (Dayan & Niv, 2008; Matsumoto & 
Hikosaka, 2009; Ott & Nieder, 2019), Flt, AHF 
究 者 认为 与 效 价 有 关 的 DA 主要 被 用 来 更 新 价值 
表征 ,实现 RL; 而 与 突显 性 有 关 的 DA 则 预示 着 
刺激 需要 获得 的 注意 量 , 参与 调节 认 知 控制 (Ott 
& Nieder, 2019; Sutton & Barto, 2018)。 

Schultz 等 人 (1997) 最 先 提出 DA 在 RL HAE 
要 作用 。Schultz 认为 DAN 的 放电 活动 反映 的 是 
实际 获得 奖励 和 预期 奖励 之 差 . 即 奖励 预测 偏差 
(reward prediction error, RPE)， 而 不 是 反映 奖励 本 
身 的 大 小 。 人 研究 发 现 ，DAN 的 反应 会 随 着 学 习 的 
展开 而 发 生变 化 , RPE 也 随 之 快速 变化 ,这 使 得 
RPE 信号 可 用 于 实时 更 新 当前 状态 和 潜在 行为 结 
果 的 价值 表征 ， 进 而 影响 后 续 的 行为 决策 (Berke， 
2018; Dayan & Niv, 2008; Hamid et al., 2016)。 

关于 好 奇 会 激活 中 脑 DA 系统 的 证 据 有 很 多 。 
儿 项 功能 磁 共 振 成 像 研究 报道 了 在 好 奇 诱发 后 的 
预期 形成 阶段 (满足 好 奇 的 信息 呈现 之 前 的 等 待 
阶段 )， 纹 状 体 区 域 (striatum) 的 活动 有 所 增强 ， 这 
些 区 域 的 激活 受到 SN/VTA 释放 的 DA 的 影响 


(Gruber et al., 2014; Kang et al., 2009; Lau et al., 
2020; Oosterwijk et al., 2020)。 在 冷 知 识 问题 任务 
中 ， 高 好 奇 的 冷 知识 问题 会 引起 更 强 的 中 脑 DAN 
活动 (Gruber et al., 2014; Kang et al., 2009)。 而 另 
一 项 与 好 奇 相关 的 研究 显示 ， 当 可 能 获得 的 未 来 
信息 更 为 有 利 时 ,被 试 对 这 些 信 息 的 渴望 越 强 ， 
SN/VTA 和 VS 的 激活 也 更 强 (Charpentier et al., 
2018)。 可 见 ， 虽 然 与 一 级 奖励 (水 或 食物 等 ) 不 同 ， 
言 息 是 一 种 间接 的 奖励 , 但 DA 对 它们 的 反应 却 
是 类 似 的 。 说 明 DA 反映 的 是 奖励 背后 更 为 抽象 
的 东西 ， 比 如 奖励 物 提供 的 价值 (Berke，2018; 
Matsumoto & Hikosaka, 2009)。 也 就 是 说 ， 对 于 皮 
层 下 的 奖励 结构 来 说 , 信息 的 价值 与 其 他 事物 的 
价值 并 无 本 质 区 别 。 

另外 , DA 还 参与 了 另外 一 个 重要 的 过 程 一 一 
认 知 控制 (Ott & Nieder, 2019; Sutton & Barto, 
2018). Ott 和 Nieder (2019) 总 结 了 DA 在 认 知 控 
制 中 的 三 个 主要 作用 : (1) 控 制 感觉 输入 , 使 得 与 
潜在 行为 相关 的 刺激 得 到 加 工 ; (2) 维 持 和 操纵 工 
作 记 忆 内 容 ; (3) 将 这 些 信息 传递 到 准备 行为 反应 
的 运动 前 区 。 一 些 研究 者 认为 ,动机 和 认 知 控制 
之 间 的 相互 作用 与 从 VTA 到 LPFC 的 DAN 投射 
有 关 。 例 如 ,研究 发 现 ，LPFC 中 的 DA 水 平 与 认 
知 控制 和 注意 有 关 (Anderson, 2016; Durstewitz & 
Seamans, 2008)。 不过, 也 有 证 据 显 示 , LPFC 通过 
影响 VTA 对 预期 奖励 的 活动 来 启动 动机 行为 
(Ballard et al.，2011)。 即 ， 认 为 LPFC 通过 影响 
ACC 和 VTA 来 形成 动机 性 的 认 知 控制 。Hippmann 
等 人 (2021) 的 动态 因果 模型 (dynamic causal modeling) 
分 析 更 支持 前 一 种 观点 。 研 究 中 ， 当 对 控制 的 需 
求 较 高 时 , VTA 对 PFC 产生 因果 性 影响 。 想 要 确 
E DA 如 何 参与 认 知 控制 ， 仍 需要 更 多 证 据 加 以 
证 实 。 另 外 ， 虽 然 好 奇 驱动 的 信息 寻求 行为 也 需 
要 认 知 控制 的 参与 , 需要 DA 的 投入 , 但 尚 无 以 
好 奇 为 背景 的 相关 研究 。 
2.2.3 ”好 奇 对 学 习 与 记忆 的 促进 
在 驱动 信息 寻求 之 外 ， 好 奇 最 重要 的 一 个 作 
用 是 能 促进 个 体 的 学 习 和 记忆 。 长 期 来 看 ， 特 质 
性 好 奇 与 学 业 成 就 之 间 有 显著 的 正 相 关 ， 这 个 关 
系 适 用 于 从 学 前 到 青年 的 所 有 阶段 (Froiland et al., 
2015; Shah et al., 2018; Tucker-Drob et al., 2016; 
Oudeyer et al., 2016)。 就 状态 好 奇 而 言 ， 与 高 好 奇 
相关 的 信息 在 实验 后 的 一 天 和 至 少 两 周 内 仍 能 被 
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更 好 地 记 住 (Gruber et al., 2014; Kang et al., 2009; 
Marvin & Shohamy, 2016)。 可 见 ， 好 奇 引 起 的 记忆 
增强 不 会 在 短 时 间 内 消退 。 并 且 ， 好奇 的 这 一 记 
忆 增 强 效 应 对 儿童 、 青 少年 、 年 轻 人 和 老年 人 都 
适用 (Fastrich et al., 2018; McGillivray et al., 


低 好 奇 问题 时 右 侧 海马 体 和 双 侧 NAcc 的 激活 差 
异 预测 了 高 好 奇 问题 答案 和 低 好 奇 问题 答案 的 记 
忆 差 别 (Gruber et al., 2014)。 而 答案 呈现 时 这 些 脑 
区 的 活动 却 不 能 对 好 奇 相 关 信 息 的 记忆 进行 预 
测 。 这 一 结果 表明 在 高 好 奇 状态 下 ， 对 未 来 信息 


2015)。 此 外 ， 好 奇 状 态 除 了 对 满足 好 奇 的 目标 信 
息 有 增强 效果 ， 对 该 状态 下 遇 到 的 其 它 偶 然 性 信 
息 也 有 增强 效果 。Gruber 等 人 (2014) 以 成 年 人 为 
被 试 , 在 冷 知 识 问题 后 的 答案 预期 阶段 (尤其 是 该 
阶段 的 早期 ) 插 入 中 性 面孔 ,高 好 奇 被 试 对 这 些 侦 
然 出 现 的 面孔 也 会 表现 出 更 好 的 记忆 效果 。 儿 童 
和 青少年 也 会 表现 出 对 好 奇 状态 下 非 目标 信息 的 
记忆 增强 (Fandakoval & Gruber, 2021)。 

好 奇 为 什么 能 够 促进 学 习 与 记忆 ?这 可 能 点 
海马 的 活动 增强 有 关 。 Gruber 和 Ranganath (2019) 


产生 预期 时 分 泌 的 DA 刺激 了 NAcc 和 海马 ,进而 
促进 了 对 即将 到 来 信息 的 学 习 。 研 究 还 发 现 如 果 
学 习 是 被 好 奇 驱动 的 , 额外 再 附加 外 部 动机 是 不 
必要 且 无 效 的 。 这 也 是 为 什么 在 一 些 情况 下 ,其 
它 外 部 奖励 反而 会 降低 好 奇 带 来 的 促进 作用 
(Murayama et al., 2010)。 

除了 SN/VTA- 海 马 功能 联结 能 增强 学 习 过 程 ， 
好 奇 还 会 通过 影响 学 习 过 程 中 的 注意 促进 学 习 。 
研究 表明 , DA 会 引导 个 体 对 指向 过 去 或 未 来 奖励 
的 刺激 产生 即时 的 注意 偏向 (Anderson, 2016)。 一 


的 PACE 模 型 认为 好 奇 通过 刺激 DAN 增 强 了 海马 
依赖 的 记忆 编码 和 记忆 巩固 。 海 马 是 学 习 、 记 忆 
发 生 的 关键 脑 区 , 海马 中 的 LTP 过 程 是 记忆 巩固 
的 关键 步 又 。 研 究 者 在 动物 研究 中 发 现 ， 暴 露 于 
新 环境 有 利于 LTP 的 增强 ， 而 该 过 程 是 由 DA 和 
NE 系统 介 导 的 (Li et al., 2003; Li et al., 2013). 5 
4k, NE(Straube et al., 2003) 和 DA 活动 (Moncada & 
Viola, 2007; Lisman et al., 2011) 还 促进 了 从 早期 
LTP 到 持续 LTP 的 过 渡 。 

该 过 程 在 人 类 研究 中 也 得 到 了 证 实 。 有 关外 
部 动机 和 记忆 关系 的 文献 表明 , 动机 状态 本 身 可 
以 促进 学 习 和 记忆 (Shohamy & Adcock, 2010)。 
为 , NAcc 和 SN/VTA 复合 体 与 海马 构成 了 一 个 功 
能 性 回路 (Lisman & Grace, 2005)。 研 究 者 看 到 , 在 
预示 高 奖励 (外 部 奖励 ， 如 人 金钱) 的 线索 出 现时 ， 
NAcc 和 SN/VTA 以 及 海马 的 激活 都 增加 了 ， 对 相 
关 事 件 的 记忆 也 得 到 了 增强 (Lisman & Grace, 
2005; Lisman et al., 2011; Shohamy & Adcock, 
2010)。 高 奖励 条 件 下 SN/VTA 和 海马 功能 联结 的 
增强 , 不 仅 发 生 在 记忆 编码 阶段 (Murty & Adcock, 
2014; Wolosin et al., 2012)， 还 发 生 在 学 习 后 的 记 
忆 巩 固 阶段 (Gruber et al., 2016)。Gruber 等 人 (2016) 
发 现 , 在 学 习 后 的 休息 期 间 ， 高 奖励 情境 对 应 的 
海马 表征 会 优先 被 再 次 激活 ， 这 意味 着 在 高 奖励 
情境 中 学 习 的 项 目 会 优先 得 到 巩固 。 

以 上 是 外 部 动机 强化 学 习 的 作用 机 制 ， 好 奇 
作为 内 部 动机 的 作用 机 制 与 其 相似 ， 只 不 过 奖励 
换 成 了 信息 本 身 。 研 究 发 现 ， 呈现 高 好 奇 问 题 和 


项 眼 动 研 究 发 现在 好 奇 情境 中 出 现 了 类 似 的 注意 
偏向 ， 高 好 奇 状 态 下 ,被 试 对 即将 呈现 冷 知识 问 
题 答案 的 位 置 会 投 以 更 多 关注 ， 即 产生 预期 注视 
(Baranes et al., 2015)。 而 高 好 奇 对 注意 力 的 改变 与 
注意 网 络 的 激活 有 关 ， 好 奇 或 者 说 好 奇 引 起 的 
DAN 的 活动 改变 了 额 叶 和 顶 叶 区 域 (与 注意 有 关 ) 
的 激活 状态 (Jepma et al., 2012)。 

另 一 个 与 学 习 增 强 有 关 的 系统 是 NE 系统 。 
瞳孔 大 小 的 改变 反映 了 NE 系统 的 活动 情况 ， 而 
对 好 奇 对 象 的 瞳孔 扩大 程度 可 以 正 向 预测 学 习 效 
率 (Nassar et al., 2012), 4b, LC 活动 与 个 体 的 情 
绪 唤 起 状态 有 关 ， 它 对 调节 海马 功能 、 影 响 学 习 
过 程 也 有 作用 (Mather et al., 2016; Sakaki et al., 
2014). 

AZ, 好奇 状态 下 , 在 DA 和 NE 系统 的 影响 
下 ,海马 的 活动 性 增加 ， 这 不 仅 帮 助人 们 记 住 了 
他 们 感到 好 奇 的 事情 ,还 帮助 他 们 记 住 了 该 状态 
下 (好 奇 发 生 后 ) 出 现 的 其 它 信 息 。 

2.3 ”好 奇 满足 阶段 

在 日 常生 活 中 个 体 采取 的 每 一 个 行动 都 有 其 
潜在 的 结果 ,要 么 是 积极 的 ,要么 是 消极 的 ,这 些 
结果 在 很 大 程度 上 塑造 了 我 们 未 来 的 行为 ， 并 激 
发 出 个 体 为 获得 积极 结果 而 做 出 决定 的 动机 。 好 
奇 驱动 的 信息 寻求 行为 也 是 如 此 ,需要 一 个 积极 
的 结果 一 一 好 奇 满足 ， 作 为 反馈 以 巩固 这 些 行为 
和 动机 。 好 奇 满 足 才能 使 好 奇 动机 驱动 的 RL 得 
以 完成 。 

在 广义 的 RL 模型 中 , 智能 体 (agent) 的 学 习 过 
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程 极度 依赖 其 自身 经 历 (图 2a)。 智 能 体 发 出 一 个 
动作 作用 于 环境 ， 环 境 状 态 发 生 改 变 的 同时 ， 产 
生 了 一 个 强化 信号 (奖励 或 惩罚 ) 反 馈 给 智能 体 ， 
智能 体 根据 当前 的 环境 状态 和 反馈 的 强化 信号 决 
定 下 一 个 动作 的 发 出 策略 ， 原 则 是 使 奖励 最 大 
化 。 选 择 的 动作 又 会 影响 下 一 时 刻 的 状态 和 强化 
信号 ， 如 此 往复 (Sutton & Barto，2018)。 按 照 
Gershman 和 Uchida (2019) 的 解读 ， 生 物体 的 RL 
是 贝 叶 斯 式 的 , 涉及 三 个 关键 成 分 : 状态 (state)、 
价值 (value) 和 策略 (policy)。 首 先 ， 状态 指 生 物体 
当前 占有 的 环境 状态 ， 如 时 间 、 地 点 、 面 对 的 对 
BRE. 从 感知 角度 讲 “ 生 物体 并 不 能 获得 当前 所 处 
状态 的 完整 信息 ,而 是 只 能 接收 感官 数据 提供 的 


来 奖励 预期 。 事 实 上 , 信念 状 态 才 是 奖励 预测 的 
关键 自 变 量 ， 也 就 是 说 价值 是 一 个 关于 信念 状态 
的 函数 。“ 关 于 奖励 获得 的 价值 函数 的 参数 是 通过 
感受 不 同 状态 下 的 奖励 经 验 逐 渐 确 定 的 "(图 2b)。 
第 三 ,策略 是 在 当前 状态 下 采取 何 种 行动 的 决 
定 。“ 存 在 一 个 从 状态 到 策略 的 映射 ， 该 映射 受到 
习 得 价值 的 调节 。”*” 由 于 最 优 策略 通常 是 未 知 的 ， 
生物 体 必 须 在 “利用 ”奖励 确定 的 行为 和 “探索 ”可 
能 有 更 好 奖励 的 行为 之 间 进 行 权衡 。Gershman 和 
Uchida (2019) 认 为 “这 三 种 不 同形 式 的 不 确定 性 
(与 状态 .价值 和 策略 相关 ) 在 DA 的 调节 和 被 调节 
中 扮演 着 核心 角色 。” 在 贝 叶 斯 RL 框架 下 , “状态 
不 确定 性 通过 信念 状态 的 概率 分 布 影响 DA 系统” 


关于 当前 状态 的 模糊 信息 。 ”生物 体 实际 获得 的 是 
基于 贝 叶 斯 规则 得 到 的 信念 状态 (belief state)， 即 
利用 感官 数据 的 概率 分 布 (P(x))、 潜在 真实 状态 的 
先 验 概率 (P(s)) 以 及 似 然 估计 值 (真实 环境 状态 中 
得 到 当前 感官 数据 的 条 件 概率 P(xls)) 计 算得 到 的 
后 验 概率 (P(s|lx))， 是 对 过 去 所 有 观察 历史 的 最 优 
估计 。 其 次 , 价值 是 根据 当前 状态 计算 出 来 的 未 
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信念 状态 的 计算 可 能 发 生 在 内 侧 前 额 叶 (medial 
prefrontal cortex，MPFC)。“ 价 值 不 确定 性 通过 价 
值 函 数 参 数 的 概率 分 布 影响 DA 系统 , DA 通过 报 
告 RPE 又 反 过 来 推动 价值 函数 参数 的 更 新 ”。 价 
值 函数 形成 主要 涉及 的 脑 区 是 纹 状 体 。 一 篇 关于 
RL 的 元 分 析 研 究 也 指出 , VS 是 参与 众多 RL 的 关 
键 皮 层 下 结构 (Garrison et al., 2013)。 最 后 , “策略 
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图 2 强化 学 习 模型 。(a) 广 义 的 强化 学 习 过 程 。 智 能 体 发 出 动作 改变 环境 ， 环 境 一 方面 改变 了 对 智能 体 的 状态 输入 ， 
个 强化 信号 (奖励 或 惩罚 )， 影 响 智能 体 接 下 来 的 动作 。 如 此 循环 , 在 奖励 最 大 化 的 原则 下 不 断 
调整 智能 体 的 行动 策略 。(b) 贝 叶 斯 框架 下 的 强化 学 习 ( 此 图 参考 Gershman & Uchida, 2019)。 由 于 不 确定 性 的 存在 ， 生 
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(P(s)) 以 及 似 然 佑 计 值 (真实 环境 状态 中 得 到 当前 感官 数据 的 条 件 概 率 (P(xls)) 计 算得 到 的 后 验 概率 (P(sjx))。 基 于 信念 
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不 确定 性 通过 生物 体 行为 的 概率 分 布 影 响 DA 系 
统 ”。 单 核 背 酸 多 态 性 研究 发 现 ， 两 个 调控 DA 水 


明 ， 当 新 知识 与 期 望 不 一 致 时 , 信息 寻求 行为 会 
增加 (Vogl et al., 2019)。 另 一 方面 ， 如果 新 信息 没 


平 的 蛋白 质 COMT 和 DARPP-32 参与 了 定向 探索 有 超出 预期 ， 人们 往往 感到 失望 ,信息 价值 会 被 
和 随机 探索 (Frank et al., 2009; Humphries et al., 调 低 。 
2012)。 贝 叶 斯 RL 框架 极 大 地 丰富 了 传统 RPE 对 前 文 提 到 ， 一 些 研究 者 认为 信息 缺口 引起 厌 


DA 的 解释 。 恶 情 绪 ， 即 好 奇 发 生 伴 随 着 一 个 负 人 性 情绪 


该 模型 同样 适用 于 从 好 奇 发 生 到 好 奇 满足 的 


(Berlyne, 1957; Loewenstein, 1994)。 也 有 一 些 研究 


RL 过 程 。 以 与 目标 信息 的 距离 为 例 , 个 体感 知 到 
的 与 目标 信息 的 距离 ， 即 信念 状态 , 是 基于 当前 
掌握 信息 和 过 往 经 验 形成 的 估计 ， 并 不 完全 等 同 
于 当前 环境 与 目标 信息 的 真实 距离 。 该 估计 值 决 
定 着 目标 信息 预期 价值 。 个 体感 知 的 与 目标 信和 
的 距离 随 着 信息 寻求 的 展开 不 断 变 化 ， 目 标 信 


tlt èt 


者 认为 好 奇 可 能 伴随 着 积极 的 情绪 (Grossnickle， 


2016; Litman, 2008)。 这 种 型 


E 解 上 的 差异 很 可 


Akb 
能 是 


因为 研究 者 们 关注 的 不 是 同一 个 情绪 过 程 。 当 以 
过 程 观看 竺 好奇 的 发 生发 展 时 ， 就 会 发 现 不 同 阶 
段 引 发 的 情绪 是 在 不 断 变 化 的 。 好 奇 发 生 时 产生 
EA, 好奇 满 足 后 也 会 伴随 情绪 。 在 好 奇 满足 阶 


的 预期 价值 也 随 之 动态 改变 。 当 实际 获得 的 信息 段 ， 可 能 会 产生 诸如 愉悦 (好 奇 满足 )、 吃 惊 (目标 
价值 高 于 其 预期 价值 ， 即 RPE 为 正 时 ， 预 示 着 可 信息 价值 超出 预期 ) 失望 (目标 信息 价值 达 不 到 预 


以 对 行为 的 预期 价值 进行 上 调 ， 从 而 增加 后 续 好 
奇 发 生 和 信息 寻求 的 可 能 性 。Litman 等 人 (2005) 
就 发 现 ， 越 是 接近 答案 (feeling of knowing) 被 试 就 
越 是 好 奇 , VS 激活 也 越 强 。 

Jepma 等 人 (2012) 的 知觉 好 奇 和 Ligneul 等 人 
(2018) 的 知识 好 奇 研究 都 表明 ， 在 好 奇 满足 阶段 


期 )、 无 助 ( 信 息 寻 求 失 败 ) 等 情绪 (di Leo et al., 
2019; Vogl et al., 2019)。 由 于 研究 中 对 好 奇 的 界定 


不 清晰 情绪 评估 的 阶段 不 统一 ， 


奇 情绪 认识 的 分 卜 。 
2.4 信息 整合 阶段 


会 出 现 


对 好 


至 此 ， 好 奇 的 反馈 循环 还 未 真正 结束 。 目 标 
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(分 别 对 应 图 片 模糊 性 消除 和 冷 知识 问题 解答 )VS 
会 产生 更 强 的 神经 活动 。 这 一 结果 与 Gruber 等 人 
(2014) 发 现 的 答案 预期 阶段 而 非 好 奇 满足 阶段 出 
现 纹 状 体 激 活 相 矛盾 。 之 所 以 出 现 这 样 的 差异 ， 
与 不 同 研 究 间 的 任务 设计 差异 有 关 (Gruber et al., 
2019)。Jepma 等 人 (2012) 和 Ligneul 等 人 (2018) 的 
研究 中 ， 满 足 好 奇 的 信息 并 不 一 定 每 次 都 出 现 ， 
日 于 常常 得 不 到 满足 ， 对 目标 信息 的 预期 价值 估 
计 就 会 降低 ， 而 当 意 外 获得 目标 信息 时 ， 就 会 出 
现 一 个 明显 正 向 的 RPE。 而 Gruber 等 人 (2014) 的 
冷 知 识 问题 的 答案 总 是 会 出 现 ， 加 上 冷 知识 问题 
本 身 比较 枯燥 , 使 得 冷 知 识 问题 答案 提供 的 实际 
价值 和 答案 的 预期 价值 都 比较 稳定 ， 导致 答案 呈 口 ” 这 是 因为 扩充 的 知识 网 络 使 更 多 的 知识 扩展 
现时 的 RPE 不 会 有 太 大 的 变化 ,而 这 可 能 会 削弱 空间 显露 了 出 来 Loewenstein, 1994)。 意识 到 知识 
好 奇 动机 。 缺口 就 能 促进 好 奇 发 生 并 进一步 引导 知识 获取 行 
可 见 ， 对 于 信息 寻求 行为 的 强化 来 说 ,简单 为 。 其 次 ， 获 得 信息 的 奖励 感 会 增加 新 信息 的 预 
的 好 奇 满 足 可 能 还 不 够 ,超出 预期 价值 的 信息 也 期 奖励 价值 ， 累积 的 知识 还 会 让 个 体 意识 到 相关 
很 重要 。Marvin 和 Shohamy (2016) 用 “信息 预测 偏 主题 的 重要 性 ， 这 都 会 让 个 体 在 评估 阶段 给 新 信 
"(information prediction errors) 表 示 新 信息 的 实 息 赋 予 更 高 的 价值 。 最 后 ， 除 了 主题 相关 信息 的 
回报 价值 与 新 信息 的 期 望 回 报价 值 之 差 。 如 果 价值 会 被 上 调 外 , 个 体 对 获取 信息 的 能 力 感知 也 
获得 的 信息 是 意外 的 ， 则 信息 预测 偏差 为 正 , 个 会 提高 ， 从 而 增加 对 信息 寻求 行为 的 价值 估计 。 
体会 调 高 未 来 新 信息 的 预期 回报 价值 。 有 研究 表 不 过 , 在 知识 获得 后 ,无 论 在 实验 研究 还 是 


言 息 获得 后 ， 还 需要 对 它 进行 进一步 的 加 工 。 如 
果 它 最 终 被 纳入 原 有 的 知识 结构 ， 就 会 更 新 先 验 
知识 库 。 信 息 缺 口 的 形成 ,直接 源 于 当前 信息 和 
先 验 知识 的 差距 。 而 先 验 知识 库 的 更 新 , 会 更 容 
易 产 生 新 问题 、 形 成 新 的 信息 缺口 ,诱发 出 新 的 
好 奇 ， 进 而 启动 新 一 轮 的 循环 。Lydon-Staley 等 人 
(2021) 发 现 高 剥夺 型 好 奇 者 构建 的 知识 网 络 更 加 
紧密 ,在 信息 寻求 中 会 更 多 的 返回 之 前 查看 过 的 
主题 信息 。 

Murayama (2019) 总 结 了 知识 获得 促进 进 一 
步 信息 寻求 的 三 条 路 径 : 首先 ， 如 上 所 述 ， 知 识 
获得 使 个 体 更 能 意识 到 先前 意识 不 到 的 “信息 缺 
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在 真实 学 习 情 境 中 ， 都 可 能 出 现 对 新 信息 缺口 感 
知 的 钝 化 。 即 个 体 没 能 发 现 更 多 的 信息 缺口 ， 甚 


答案 表现 出 更 好 的 记忆 力 ， 这 一 结果 很 大 程度 上 
青少年 对 目标 信息 的 价值 预期 有 关 ， 他 们 觉得 


至 终止 学 习 任务 ,因为 他 们 主观 上 觉得 自己 已 经 
对 该 主题 有 了 完全 的 了 解 。 实 验 中 出 现 这 种 情况 
多 半 是 因为 诱发 材料 (如 冷 知 识 ) 通 常 与 先 验 知识 
没有 太 多 关联 ,实用 性 太 低 ,在 答案 获取 过 程 中 
容易 引起 被 试 的 大 足 情 绪 (Marvin & Shohamy, 
2016; Murayama et al., 2019)。 真 实学 习 环 境 中 的 
问题 往往 是 , 学生 常 常 错误 地 认为 自己 已 经 掌握 
学 习 内 容 , 但 实际 上 并 没有 。 如 前 文 所 述 , 个 体 的 
感知 状态 和 真实 状态 之 间 是 有 差距 的 (Gershman 
& Uchida, 2019)。 相 关 研 究 表明 ， 学 习 者 对 自己 掌 
握 的 学 习 材 料 的 判断 常 是 不 准确 且 过 度 乐 观 的 ， 
他 们 经 常 过 早 地 终止 了 自己 的 学 习 行 为 (Murayama 
et al., 2016)。 

总 的 来 说 ,知识 的 获取 与 整合 会 增强 未 来 的 
好 奇 动 机 ， 驱 动 更 多 的 信息 寻求 行为 ,进而 使 知 
识 获 取 过 程 具有 可 持续 性 。 在 奖励 系统 的 作用 下 ， 
从 好 奇 发 生 到 好 奇 满足 ， 到 真正 的 信息 整合 ,再 
回 到 新 一 轮 的 好 奇 发 生 , 形成 了 一 个 正 反馈 循 
环 .而 稳定 的 好 奇特 质 正 是 这 种 短暂 好 奇 体 验 重 复发 
生 并 最 终 固化 的 结果 (Fayn et al., 2019; Lydon-Staley 
et al., 2021). 


3 好奇 在 个 体 生命 周期 中 的 变化 与 发 展 


好 奇 反 馈 循环 模型 中 从 好 奇 发 生 到 好 奇 满 足 ， 
展现 的 是 短暂 性 的 好 奇 变 化 发 展 的 一 个 小 循环 。 
事实 上 , 好 奇 的 变化 发 展 般 入 在 一 个 更 大 的 动态 
过 程 ， 即 个 体 的 出 生 、 成 长 和 衰老 中 。 

31 ”好 奇 随 年 龄 的 发 展 与 分 化 

大 量 研究 表明 ， 婴 幼儿 会 通过 系统 性 地 探索 
环境 以 减少 不 确定 性 并 填补 信息 缺口 可见 在 好 
奇 的 发 生 和 表现 上 婴 幼 儿 与 成 人 并 无 显著 区 别 
(Begus et al., 2016; Leckey et al., 2020). 

但 引发 好 奇 的 刺激 和 好 奇 产生 的 影响 会 随 年 
龄 的 增长 而 变化 。 引 起 不 同年 龄 个 体 好 奇 的 事物 
是 不 同 的 ， 婴 儿 喜 欢 探 索 视觉 上 更 新 奇 的 物体 ， 
而 年 幼 的 儿童 更 喜欢 探索 功能 上 不 清楚 的 事物 
(Kidd & Hayden, 2015; Schulz，2012)。2021 年 ， 
Fandakova 和 Gruber 用 冷 知 识 范 式 , 研究 了 在 
10~14 岁 被 试 中 , 好奇 是 如 何 影 响 记忆 的 。 结 果 发 
现 , 个 体 越 是 好 奇 ， 对 知识 的 记忆 也 就 越 好 。 而 相 
比 于 10~12 岁 的 儿童 , 12~14 岁 的 青少年 对 冷 知识 


冷 知识 问题 比 预期 的 更 有 趣 (Fandakova & Gruber, 
2021)。 也 有 可 能 是 因为 青少年 的 先 验 知识 更 多 ， 
更 容易 与 新 信息 建立 联结 。 

好 奇 的 这 些 年 龄 特点 可 能 与 脑 的 发 育 有 关 。 
与 冲突 监测 相关 的 ACC 在 好 奇 发 生 中 扮演 着 重 
要 角色 ， 从 婴儿 到 青春 期 ，ACC 都 在 持续 的 发 育 
成 熟 。 具 体 表 现 有 ,与 认 知 神 突 监测 和 处 理 相关 
的 脑 电 成 分 错误 相关 负 波 (ERN) 的 振幅 在 成 
年 之 前 一 直 都 在 随 着 年 龄 的 增长 而 增加 。Fandakova 
等 人 (2018) 还 发 现 ，12 岁 的 儿童 在 面 对 不 确定 性 
的 记忆 信息 时 会 激活 ACC 和 AIC, 但 只 有 10~12 
岁 的 孩子 会 在 报告 不 确定 性 时 激活 LPFC。 进 一 步 
分 析 表 明 ，10 岁 时 与 认 知 冲突 相关 的 脑 区 激活 更 
强 的 孩子 (尤其 是 AIC), 在 1.5 年 后 的 不 确定 性 评 
估 中 PFC 的 激活 会 更 大 。 据 此 ，Gruber 和 
Fandakova(2021) 假 设 ， 随 着 年 龄 的 增长 , 个 体 不 
断 经 历 各 种 认 知 冲突 导致 的 信息 缺口 , 基于 ACC 
的 冲突 处 理 能 力 不 断 提高 ,而 ACC 激活 上 的 差异 ， 
进一步 导致 基于 PFC 的 评估 系统 差异 化 地 发 展 ， 
最 终 使 儿童 和 青少年 表现 出 差异 化 的 好 奇 和 好 奇 
驱动 的 探索 行为 。 另 一 项 纵向 研究 结果 也 显示 ， 
7~15 岁 儿童 PFC 的 结构 变化 与 评估 过 程 的 发 展 有 
关 (Fandakova et al., 2017)。Fandakova 等 人 (2017， 
2018，2021) 倾 向 于 将 LPFC 理解 为 评估 系统 ,但 
在 EVC 框架 中 LPFC 更 多 体现 的 是 控制 的 执行 
(Shenhav et al., 2016)。 就 好 奇 相 关 研 究 来 说 ， 两 种 
观点 似乎 都 可 以 解释 现 有 的 研究 结果 ， 至 于 哪 一 
种 更 合理 仍 需 进 一 步 探 讨 。 另 外 , PFC 是 一 个 比较 
模糊 的 脑 区 定位 ， 它 涉及 很 多 亚 区 , 不 同 亚 区 在 
功能 上 也 是 存在 差异 的 (Reverberi, Lavaroni, et al., 
2005)， 有 必要 对 其 进行 更 细致 的 区 分 。 

总 的 来 说 , 年 幼儿 童 更 依赖 于 ACC 和 AT 的 
功能 ， 对 简单 的 信息 预测 偏差 产生 反应 ， 从 而 表 
现 出 不 加 区 分 的 高 好 奇 。 随 着 额 叶 系统 的 成 熟 ， 
LPFC 开始 对 包括 信息 预测 偏差 及 以 外 的 其 它 相 
关 因 素 进 行 综合 评估 (Fandakova et al., 2017, 2018; 
Fandakova & Gruber, 2021)， 又 或 者 具有 更 强 的 控 
制 能 力 使 注意 能 聚焦 于 当前 任务 (Reverberi，Toraldo， 
et al., 2005; Shimamura, 2000)。 这 都 可 能 是 年 龄 较 
小 的 孩子 对 不 同 领域 表现 出 广泛 的 兴趣 ， 而 年 龄 
较 大 的 孩子 的 兴趣 领域 开始 减少 和 分 化 的 原因 
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(Frenzel et al., 2012)。, 一 旦 好 奇 被 诱发 , LPFC 还 会 
通过 刺激 中 脑 边缘 系统 多 巴 胺 能 通路 来 调节 海马 
依赖 的 学 习 (Gruber et al., 2014; Lau et al., 2020)。 
可 能 正 是 发 展 了 的 PFC 与 海马 依赖 性 学 习 的 多 巴 
胺 能 神经 调节 之 间 的 交互 作用 ,让 我 们 看 到 上 文 
提 到 的 现象 ， 即 信息 预测 偏差 引发 的 好 奇 对 青 少 
年 的 记忆 增强 作用 要 强 于 儿童 (Fandakova & 
Gruber, 2021)。 
3.2 ”好 奇 随 年 龄 的 衰退 

好 奇 除了 会 随 年 龄 增长 表现 出 不 断 的 分 化 外 ， 
还 会 随 着 个 体 的 衰老 而 出 现 衰退 。 大 量 调查 研究 
发 现 ， 从 成 年 早期 到 成 年 晚期 , 个体 的 知识 好 奇 、 
人 际 好 奇 和 自我 好 奇 等 都 会 随 年 龄 的 增长 而 下 降 
(Robinson et al.，2017)。 与 好 奇 相关 的 开放 性 


(openness to experience; Costa et al., 2000; Ziegler 


et al., 2015)、 感 觉 寻 求 (sensation seeking; Giambra 
et al.，1992) 、 探 索 行为 (exploratory behaviors; 
Kashdan et al., 2009; Kashdan et al., 2004) 都 表现 
出 相应 的 降低 。 

好 奇 及 其 相关 行为 的 衰退 主要 与 两 个 系统 一 -DA 
系统 和 NE 系统 的 退化 有 关 。DA 系统 和 NE 系统 
很 容易 受到 衰老 的 影响 。 老 年 人 大 脑 中 这 些 对 好 
奇 至 关 重 要 的 脑 区 的 功能 削弱 和 结构 受 损 ， 可 能 
是 导致 前 面 提 到 的 主观 好 奇 及 其 相关 行为 下 降 的 
一 个 重要 原因 (Chowdhury et al., 2013; Eppinger et al., 
2013; Sakaki et al., 2018)。 

不 过 ,也 正 因 为 好 奇 能 激活 上 述 两 个 系统 ， 
使 好 奇 成 为 抗 衰老 的 一 剂 保 护 剂 。 海 马 会 随 着 年 
龄 增长 出 现 功能 障碍 (Mitchell et al., 2000; Raz et al., 
2010)， 而 好 奇 可 以 通过 DA 系统 和 NE 系统 刺激 
海马 ， 以 减缓 记忆 功能 的 退化 (Lisman & Grace, 
2005)。 短 暂 的 好 奇 激发 ， 或 形成 长 期 的 好 奇特 质 
对 衰老 有 很 好 的 抵抗 作用 。 一 项 纵向 研究 发 现 ， 
保持 好 奇 可 以 让 个 体 终身 受益 ,尤其 是 在 影响 海 
马 促进 记忆 上 (Martin et al., 2007)。 除 了 记忆 保护 ， 
好 奇 对 其 它 认 知 功能 也 有 改善 作用 ,这 可 能 与 
DA 系统 和 NE 系统 对 PFC 的 刺激 有 关 (Sakaki et al., 
2018)。 


4 ”总 结 与 展望 


综 上 所 述 , 好奇 的 反馈 循环 模型 从 动态 过 程 
的 视角 看 待 好 奇 的 发 生发 展 ， 把 一 次 好 奇 事 件 分 
解 成 以 下 6 个 过 程 ， 即 : 感知 信息 缺口 、 好 奇 发 


生 、 控 制 的 价值 评估 、 信 息 寻 求 、 好 奇 满 足 、 信 
息 整合 。 作 为 一 个 动态 变化 的 过 程 ， 以 上 每 一 个 
环节 都 会 受到 当前 信息 输入 和 上 一 环节 反馈 输出 
的 影响 。 模 型 确立 了 好 奇 的 内 部 动机 本 质 ， 将 好 
奇 诱发 的 情绪 和 行为 分 离 出 来 ,具体 分 析 了 每 个 
阶段 发 生 的 条 件 、 过 程 及 影响 。 该 模型 以 RL 模 
型 为 原型 ， 区 别 在 于 好 奇 情 境 中 最 重要 的 强化 物 
是 满足 好 奇 的 信息 本 身 ， 而 非 其 它 外 部 奖励 。 因 
此 ,在 好 奇 反 馈 循 环 中 , 不 断 地 诱发 、 满 足 好 奇 ， 
并 获得 超出 预期 的 目标 信息 才 是 可 持续 性 知识 获 
取 的 关键 。 

另外 ,好 奇 的 这 种 动态 循环 组 入 在 个 体 的 终 
生发 展 过 程 中 , 一 方面 它 受到 生命 发 展 中 各 种 生 
理性 变化 的 影响 和 限制 ; 但 男 一 方面 好奇 循环 
的 反复 巩固 也 会 引起 生理 上 的 变化 ,这 种 改变 又 
反 过 来 影响 我 们 的 生命 进程 。 总 的 来 讲 ,， 好奇 相 
关 的 两 个 系统 一 一 DA 系统 和 NE 系统 一 一 对 短期 
的 注意 、 记 忆 和 信息 寻求 行为 有 促进 作用 ,对 长 
期 的 认 知 功能 维持 与 改善 也 大 有 益处 。 然 而 ， 即 
便 好 奇 对 从 出 生 到 年 老 的 个 体 发 展 意义 重大 , 但 
对 好 奇 发 展 的 特点 及 其 背后 的 神经 生理 机 制 研 究 
才刚 刚 起 步 ,我 们 仍 需 要 更 多 的 研究 数据 才能 对 
其 形成 一 个 更 完整 的 认 知 。 

好 奇 研 究 越 来 越 具有 跨 学 科 性 和 多 领域 交叉 
性 , 这 就 需要 有 一 个 统一 的 概念 和 框架 作为 进 一 
步 科 学 讨论 的 基础 。 关 于 未 来 好 奇 的 研究 ， 可 以 
加 强 对 以 下 几 个 方面 的 关注 。 

4.1 加 强 对 好 奇 满 足 的 重视 

以 往 研究 更 多 关心 好 奇 诱发 所 带 来 的 各 种 好 
处 ,， 却 忽视 了 好 奇 满足 才 是 这 些 好 处 存在 的 关 
键 。 事 实 上 ， 好 奇 得 不 到 满足 才 是 日 常生 活 中 的 
常态 ,， 它 往往 会 带 来 一 系列 负 性 影响 。 例 如 ， 有 研 
究 发 现 ， 知 识 好 奇 不 被 满足 带 来 的 认 知 空虚 会 使 
个 体 产 生 更 多 的 非 理性 消费 , 个 体会 用 物质 满足 
替代 知识 满足 (Wiggin et al., 2019)。 因 此 ,后 续 研 
究 有 必要 对 好 奇 满足 予以 更 多 的 关注 。 
4.2 ”改进 现 有 的 好 奇 研究 范式 

关于 好 奇 的 研究 ,一 类 是 把 好 奇 作 为 稳定 特 
质 的 调查 研究 ， 另 一 类 是 针对 短暂 的 好 奇 状态 的 
实验 研究 。 短 暂 的 好 奇 状 态 的 研究 常用 的 研究 范 
式 包括 引发 知觉 好 奇 的 模糊 图 片 范 式 (Jepma et al., 
2012; Wiggin et al., 2019) 和 引发 知识 好 奇 的 冷 知 
识 问题 范式 (Kang et al., 2009; Ligneul et al., 2018; 
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Marvin & Shohamy, 2016)。 魔 术 (Lau et al., 2020) 
或 抽奖 任务 范式 (Kobayashi & Hsu, 2019; van 
Lieshout, de Lange, et al., 2021, van Lieshout, 
Traast, et al., 2021) 也 常 被 用 于 诱发 好 奇 , 但 在 诱 
发 的 好 奇 类 型 上 较为 模糊 。 

这 些 好 奇 研 究 范式 在 解决 一 些 特 定 问题 上 是 
存在 局 限 的 。 例 如 ，(1) 好 奇 满足 信息 要 么 直接 呈 
现 ， 要 么 用 代价 (等 待 时 间 、 代 币 或 经 历 厌恶 刺激 ) 
换取 ,无 法 反映 被 试 的 主动 信息 寻求 行为 。(2) 各 
范式 基本 都 会 呈现 答案 , 因此 在 试 次 间 形 成 了 对 
好 奇 满 足 的 稳定 期 待 ， 即 便 关注 好 奇 满 足 ， 也 只 
是 在 试 次 间 ( 有 些 试 次 满足 好 奇 ， 有 些 试 次 不 满足 
好 奇 ) 进 行 比较 ,无 法 得 知 持 续 的 好 奇 不 满足 会 对 
被 试 造成 什么 样 的 影响 。(3) 诱 发 好 奇 的 材料 缺乏 
生态 效 度 和 实用 价值 , 冷 知 识 问 题 往 往 因 其 不 成 
体系 难以 被 整合 。 学 习 一 个 简短 的 、 独 立 的 冷 知 
识 问 题 的 答案 可 能 不 足以 激发 人 们 进一步 探索 这 
个 话题 的 兴趣 。 因 此 ， 这 类 范式 很 难 探知 知识 积 
累 对 主题 价值 感知 的 影响 。(4) 当 前 研究 范式 更 关 
注 那 些 短 暂 好 奇 对 信息 寻求 的 影响 (好 奇 满 足 信 
息 在 几 秒 钟 后 就 呈现 ), 虽然 有 利于 刻画 信息 寻求 
的 微观 机 制 , 但 对 整个 知识 获取 过 程 缺乏 整体 把 
握 。 因 此 , 未 来 有 必要 对 好 奇 的 研究 范式 进行 充 
实 和 改进 ， 以 便 对 更 现实 、 具 体 的 好 奇 问题 进行 
探讨 。 

4.3 ”加 强 对 内 部 、 外 部 奖励 使 用 的 比较 

好 奇 诱发 的 学 习 和 外 部 奖励 (extrinsic rewards) 
诱发 的 学 习 本 质 上 都 是 基于 奖励 的 学 习 ， 二 者 的 
区 别 在 于 好 奇 是 内 部 动机 ,满足 好 奇 的 信息 是 内 
部 奖励 (intrinsic rewards)。 很 多 针对 好 奇 的 研究 ， 
往往 在 研究 过 程 中 既 包 含 外 部 奖励 ， 又 包含 内 部 
奖励 , 混淆 的 变量 会 影响 对 好 奇 的 理解 和 解释 。 

更 重要 的 是 , 缺乏 对 内 部 动机 和 外 部 动机 驱 
动 的 学 习 过 程 的 比较 研究 MA Festinger 和 
Carlsmith (1959) 提 出 认 知 失调 后 ， 研 究 者 们 就 意 
识 到 了 外 部 奖励 不 足 时 ， 人 们 会 自己 生成 奖励 以 
使 行为 合理 化 ,之 后 , 研究 者 们 陆续 发 现 ， 外 部 动 
机 有 时 会 削弱 内 部 动机 ， 从 而 减少 个 体 对 任务 的 
投入 (Deci et al., 1999; Eisenberger et al., 1999)。 这 
提示 教育 者 必须 非常 小 心地 使 用 外 部 奖励 ， 避 人 免 
适得其反 。 因 此 ,后 续 研 究 有 必要 对 内 部 奖励 、 
外 部 奖励 的 编码 过 程 、 使 用 时 机 和 使 用 情境 进行 
探讨 ， 尽 量 保证 学 习 过 程 是 一 个 自我 驱动 的 自 增 


长 过 程 。 
4.4 ”重视 好 奇 的 发 展 性 研究 

从 状态 到 特质 ， 从 动物 到 人 ， 从 婴儿 到 老年 ， 
好 奇 都 有 其 重要 的 生存 意义 。 但 在 对 好 奇 的 研究 
中 ,大 多 数 研究 者 关心 的 只 是 它 对 青少年 及 成 人 
的 认 知 促进 ， 忽略 了 它 的 在 个 体 发 展 中 的 变化 规 
律 。 例 如 ,迄今 为 止 几乎 没有 研究 直接 对 儿童 的 
好 奇 进行 测量 。 好 奇 如 何 从 小 循环 进入 大 循环 
在 更 长 的 时 间 尺 度 上 发 生发 展 是 今后 需要 重视 的 


一 个 课题 。 
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From induction to relief: Neurophysiological mechanisms 
underlying the curiosity feedback loop 


CHEN Nianqu 
(School of Education Science, Nantong University, Nantong 226000, China) 


Abstract: Curiosity is the main intrinsic motivation driving information-seeking behavior. The curiosity 


feedback loop model decomposes a curious event into the following six processes: perceived information 


gap, curiosity generation, value assessment of control, information seeking, curiosity satisfaction, and 


information integration. These processes create a positive feedback loop that contributes to sustainable 


knowledge acquisition. The model emphasizes the dynamic and changing nature of curiosity. In addition, 


this dynamic loop of curiosity is embedded in the lifelong development of the individual, changing as 


experience is accumulated and the brain develops. The model incorporates the expected value of control 


model and Bayesian reinforcement learning framework, and integrates research evidence from multiple 


functional brain systems such as the monitoring system, reward system, and control system. The model 


provides new ideas for understanding the neurophysiological mechanisms of curiosity. 
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